社会的需求和技术的进步,推动着古老的语言学和新兴的计算机科学相接合,产生了一门交叉学科———计算语言学。它为计算机处理语言信息(包括语言中信息成分的发现和提起,语言数据的存储、加工和传输,语言翻译和理解)提供理论模型、计算方法和实现技术。计算语言学从定名那时起,经过了短短三十多年的发展,现已成为一门稳定而又活跃的学科。
人类即将跨入二十一世纪,计算机和网络也正走入千家万户,社会日益信息化。语言是信息的主要载体,因此,语言信息处理越来越受到人们的重视。计算语言学研究积累下来的技术和资源,有的已经形成产品(最有影响的可能是机器翻译产品),有的正在被集成到新的信息处理系统之中。
语言科学是人文科学和自然科学之间的桥梁,而计算机语言学又是其最活跃的分支。开展语言信息处理研究,可以带动多种学科和技术的发展。我国学者可以在汉语信息处理这一具有天然优势的领域大有作为。
智能的本质研究是当代科学难题之一。在计算机上建立自然语言处理系统,可以为人类了解自身的语言活动提供一个可以观察的“窗口”。自然语言理解的研究可以为智能科学的突破贡献力量。
目前,我国计算语言学研究尚处于起步阶段,计算机处理自然语言的能力还很差。笔者认为,提高学科水平必须在以下几个方面作出努力。
一、重视基础设施建设。建立大规模的综合型语言知识库是必不可少的基础工程。这个知识库既包括词法、句法知识,也包括语义乃至语用知识;既有词,也有语素和短语;既包括原始的语料库,也包括经过多极加工的语科库,知识含量高、存储格式规范的词典数据库更是必不可少的组成部分。为了实现机器翻译,这个知识库不仅包括汉语知识,还要包括汉语和其他语言的对译知识。北大计算语言学研究所积十二年之功开发出来的《现代汉语语法信息词典》,可以成为综合语言知识库的组成部分。
二、重视汉语的理论体系和计算模型的探索。这方面既要提倡与国际接轨,又要重视对汉语实际情况的调查分析。北大计算机语言学研究所正在研究基于词组本位语法的、面向信息处理的现代汉语语法体系,希望为这方面的探索作出一些实际的贡献。
三、重视应用研究。开发实用产品获得的收益可以支持理论研究和基础建设,使理论、基础、应用之间形成良性循环。这样的技术路线从总体上看无疑是可取的,不过,具体到一个小单位,常常会顾此失彼。这也是我国语言信息处理学界的苦恼。
四、重视人才的培养。为了增强我国在语言信息处理这一高新技术领域的竞争力,大力培养计算语言学的人才,特别是青年人才,是十分重要的。我国现在只能在其他一些学科(计算机学、语言学)内培养计算语言学研究方向的博士生、硕士生。笔者希望能在一些有条件的大学试建计算机语言学博士点、硕士点,加速语言信息处理领域高级人才的培养。
(作者为北京大学计算语言学研究所教授)